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基于 LDA 主题 模型 的 用 户 电信 和 轨迹 恢复 算法 
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苏州 大 学 计算 机 科学 与 技术 学 院 ， 江 苏 


随 着 移动 通信 技术 的 发 展 和 移动 设备 的 普及 ， 关 于 人 们 日 常 
迹 数据 背后 隐藏 着 关于 人 及 人 类 社会 的 有 价值 的 知识 模式 。 为 了 使 基于 轨迹 
用 户 ， 能 够 准确 、 可 靠 地 恢复 缺失 电信 轨迹 显 


E; Hp, PEU, IER, TIR 


苏州 215006; 2. 香港 城市 大 学 创意 媒体 学 院 ， 


移动 行为 的 轨迹 


香港 中 国 ) 


EF 数据 记录 念 发 的 丰富 起 来 。 海 量 
灾 数 据 产生 的 知识 模式 更 精准 有 效 服务 


得 尤为 重要 。 目 前 大 多 数 方法 主要 针对 GPS 轨迹 等 连续 轨迹 进行 建 模 ， 
而 缺乏 对 移动 通信 场景 中 产生 的 电信 轨迹 恢复 的 研究 。 因 此 ， 针 对 电信 轨迹 缺失 恢复 问题 ， 将 电信 轨迹 恢复 问题 转化 
提出 了 一 种 基于 LDA 主题 模型 的 恢复 算法 。 实验 中 ,与 传统 矩阵 补 全 算法 进行 综合 比较 ， 并 观察 了 


7] 48 Pe dE A SD, 
不 同 参数 对 轨迹 恢复 效果 的 影响 。 实 验 结果 表明 ,与 传统 矩阵 补 全 算法 相 比 ， 
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User telco trajectory recovery algorithm based on LDA topic model 
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Abstract: With the development of mobile communication technology and the popularization of mobile devices, the daily track 
record data become rich. Massive track data hides valuable knowledge about person and human society. In order to make the 
knowledge model generated based on the trajectory data more accurate and effective to serve the users, it is particularly important 
to be able to recover the missing telco trajectories accurately and reliably. Currently, most of the methods mainly focus on 
modeling continuous trajectories such as GPS trajectories, but lack of researches on the restoration of telco trajectories generated 
in mobile communication scenarios. Therefore, it have transformed the problem of telecommunication trajectory recovery into 
a matrix completion problem, and proposed a recovery algorithm based on the LDA topic model. In the experiment, it make a 
comprehensive comparison with the traditional matrix completion algorithm and observe the effect of different parameters on 
trajectory recovery. The experimental results show that compared with the traditional matrix completion algorithm, the LDA 
topic model can significantly improve the recovery accuracy of missing telco tracks. 
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0 引言 客流 高 峰 和 区 域 ， 从 而 及 时 做 好 相应 的 交通 管理 。 因 此 ， 如 何 
精准 地 恢复 用 户 轨迹 的 缺失 部 分 ,从 而 挖掘 更 丰富 的 知识 模式 ， 
在 当前 大 数据 时 代 ， 数 据 所 带 来 的 影响 远 远 超出 了 企业 领 为 用 户 提 供 人 性 化 的 服务 具有 极 高 的 应 用 价值 。 移 动 对 象 轨迹 
域 ， 其 不 仅 能 带 来 商业 价值 ， 也 能 产生 社会 价值 。 随 着 信息 通 缺失 恢复 研究 引起 了 学 术 界 的 广泛 关注 。Lou 等 人 "提出 了 一 
讯 技 术 的 发 展 ， 手 机 普及 率 越 来 越 高 ， 移 动 通信 基站 的 覆盖 率 种 对 于 行驶 过 程 中 采样 率 很 低 的 稀疏 轨迹 进行 直接 匹配 的 算法 
也 越 来 越 高 。 因 此 ， 研 究 手机 定位 技术 获取 的 轨迹 信息 ， 不 但 研究 。 但 局 限 是 忽略 了 时 间 间 隔 较 大 的 稀疏 轨迹 。 在 时 间 间 隔 
可 以 为 城市 交通 规划 和 出 行 方式 的 划分 提供 更 有 效 决策 "”, B 较 大 的 情况 下 ， 该 算法 不 能 把 匹配 的 路 段 拼接 起 来 形成 完整 轨 
至 可 以 利用 节假日 中 用 户 的 出 行 定 位 数据 估计 出 可 能 会 产生 的 X Bernstein 等 人 "使 用 GPS 轨迹 数据 统计 得 到 车 辆 运行 速度 、 
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徐 彩 旭 〈1993-)， 


录用 稿 


方向 拐角 、 车 辆 运行 的 连续 性 等 特征 ， 加 上 车 辆 
迹 数据 点 匹配 来 分 析 采 样 率 较 低 的 多 


! 迹 数据 点 ， 


的 历史 轨迹 信 


路 径 推理 的 准 


确 


性 


息 提高 了 稀 朴 轨迹 点 
据 车 辆 行驶 的 历史 轨迹 数据 建立 了 一 套路 径 推理 
该 算法 可 以 快捷 地 匹配 采样 


ur 
, 


效 地 恢复 了 采样 率 较 低 的 稀 玻 多 


L 迹 缺失 部 


"提出 了 


种 基 


于 隐 马 尔 科 夫 模型 的 


迹 恢 复 算 法 ， 利 / 
人 "提出 了 还 原 个 人 
BELA Br LIE rpg 


] 最 大 后 验 概率 构建 
HÍT GPS 轨迹 缺失 的 算法 ， 通 过 设 
的 情况 ， 然 后 定义 了 最 优 路 径 的 概念 来 搜 


局 部 最 优 ; 


L 迹 的 缺失 i 


前 一 段 时 段 轨 
根据 车 辆 行驶 


匹配 的 精度 。 Zheng 等 人 " 根 


系统 ， 提 高 了 
ESSE TE 
分 。 罗 宇 等 人 
天 态 路 径 的 轨 


Ws. 。 徐 超 等 


EE 


索 GPS 轨迹 缺失 处 的 轨道 站 点 ,最终 选择 最 优 路 径 来 还 原 GPS 


H 


轨迹 


的 缺失 路 段 。 上 述 所 有 方案 都 为 本 文 的 研 


性 作用 ， 


但 存在 的 局 限 都 是 
positioning system, GPS) 技 术 ” 产生 


而 且 都 需要 使 / 


IR 


取 成 本 较 高 的 路 


< 


于 
的 轨迹 恢复 缺 


究 提 供 了 指导 


全 球 定 位 系统 (global 


失 时 段 的 位 置 ， 


迹 精 度 高 、 实 时 性 


高 ， 而 电信 基站 定位 产生 的 轨迹 
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， 但 精度 低 、 


本 文 充分 考虑 


pa 


" 


再 构建 时 空 
补 全 问题 ， 最 后 运用 LDA 3 


电信 轨迹 人 
EB 信 轨迹 在 时 


离散 程度 


高 。 针 对 
失 的 问题 ， 对 上 海 某 运 营 商 产生 的 用 


ER? 


空 上 完成 预 处 理 。 


体 过 程 是 : 


在 时 间 


分 成 若干 个 时 间 段 , 空间 上 城 
单词 矩阵 ， 将 轨迹 缺失 恢复 问题 
E 题 模型 恢复 缺失 


1 ”潜在 狄 里 克 雷 分 配 


1.1 


LDA 模型 原理 


行 基于 K-Means 


聚 类 算法 划 


转换 为 矩阵 缺 


BEHE. 


LDA 模型 是 Blei 等 人 "在 2003 年 提出 的 一 种 对 离散 数据 


LDA 模型 是 一 个 包含 单词 、 主 题 、 文 档 的 三 层 贝 叶 


集 《〈 如 文档 集 》 建 模 的 概率 主题 模型 ， 是 一 种 对 文本 数据 的 主 


KE， 通 过 发 现 文档 中 抽象 的 主题 ， 挖 掘 语 
于 高 效 地 处 理 大 规模 的 文档 集 。 


到 模 型 。 基 


于 这 样 


种 前 提 假 设 


斯 网 络 概率 


: 文档 是 由 若 


XE 


构成 ， 


这 些 主题 是 


档 中 的 句法 结构 和 
题 -单词 拓扑 结构 如 区 


单词 出 


[| 


文本 中 若干 个 特定 有 效 词汇 
网 的 先后 
1 所 示 。 


IF. 


LDA 模型 文档 - 主 


干 个 隐 含 主题 


构成 ， 忽 略 文 
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LDA 模型 文档 一 主题 一 单词 拓 寺 
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表 1 符号 标签 含义 
1< D 文档 索引 
l<n<V 单词 索引 
<k<K 主题 索引 
文档 d 的 主题 多 项 分 布 K 维 向 量 ) 
9, 主题 上 的 单词 多 项 分 布 〈V 维 向 量 ) 
Ok 文档 -主题 分 布 矩 阵 
Dw 主题 -单词 分 布 矩 阵 
N, 文档 d 的 长 度 
Zan 文档 d 中 第 个 单词 的 主题 
Wan 文档 d 中 第 n 个 单词 的 词 项 


k 
Zpxv = {za.n} 


单词 的 主题 标签 


W bxv = {Win } 


文档 -单词 矩阵 


文档 -主题 分 布 的 超 参 数 


B 


主题 -单词 分 布 的 超 参数 


图 2 


OnmoOF 


LDA 贝 叶 斯 图 模型 


算法 1 


LDA 概率 了 


= 题 模型 生成 文档 集 过 程 


// 主 题 


l. 
2. 
3. 


// 文 档 


4. 
5 
6. 
7 
8 


9. 


10. 
11. 


for 所 有 的 主题 


xia ~ 


end for 


k e[Ll, K]: 
Dirichlet( p) 


for 所 有 的 文档 d e[1, D]: 


采样 N, It 


Poisson(4) 


采样 9, ~ Dirichlet(o) 
for 对 文档 4 中 所 有 的 单词 ne[l, N]: 
KË Zan ~ Mulri(9,) 


xt 


end for 


end for 


$ Wan ~ Multi(Q, ) 


根据 生成 文本 过 程 , 在 给 定 先 验 参 数 和 的 条 件 下 , 可 


以 得 到 文档 集 的 联合 概率 分 布 〈 包 括 所 有 可 观测 变量 和 隐 含 变 


ig 


用 的 LDA 图 模型 的 表示 。 在 图 2 


rp [i 


Lu 
E 


色 表 示 可 观测 变量 ; 


表示 重复 循环 ; 箭头 表示 依存 关系 。 


浅 色 表 示 超 参数 或 隐 含 变 
表 


符号 标签 含义 


图 表示 变 
zs JIE 
1 所 示 。 


如 


): 


p(w.z,0,0 |a.) - I], ral TE. pW) 


.TI Pean | 23) pw, , lo.) d) 


对 于 生成 单词 Wyn 三 的 概率 如 下 : 


录用 稿 


pw,, 71]8,0)- Y, pw, -tlgop,-k|8) 0 
给 定 文档 集 后 ，LDA 模型 的 目标 就 是 使 得 隐 含 变量 Z 的 后 
从 概率 最 大 化 〈maximum a posteriori, MAP )。 根 据 上 述 文档 集 
生成 过 程 ， 可 以 得 到 包含 隐 含 变量 的 后 验 概率 分 布 是 

p(z, O9, | w,a, p) - PO"2 9.0 1a. P) (3) 

pCw | a. B) 

其 中: pOw|eB) 是 文档 集 联 合 概 率 
pw. z, O, | o, B) 在 文档 主题 分 布 © 和 主题 单词 分 布 中 
上 的 积分 ， 计 算 复 杂 度 高 ， 所 以 需要 可 接受 的 近似 推理 算法 来 


计算 该 后 验 概率 。 
1.2 Gibbs 采样 


[难以 求解 的 隐 


Gibbs X FEGEDSDOG 
样 ， 人 迭代 更 新 来 获得 LDA X 


基础 理论 是 马尔 可 夫 链 蒙 
y~ MCMC)。 马 尔 可 夫 链 的 数学 定义 为 

P(X a =x|X,,X,1,...) = p(X, =x|X,) 
Gibbs 采样 是 相对 简单 的 算法 ， 经 常 


含 变量 的 后 验 概率 进行 采 
题 模型 最 终 的 参数 。Gibbs 采样 
t" (Markov chain Monte Carlo, 


(4) 


于 近似 推理 高 维度 模 


到 。 每 个 单词 的 主题 标签 zan 是 马尔 可 夫 链 


型 。LDA 主题 模型 的 Gibbs 采样 算法 把 主题 看 做 隐 含 变量 ， 通 
过 对 文档 集 的 联合 分 布 中 加 和 中 进行 积分 消除 ， 因 为 它们 可 


以 通过 已 经 观测 的 单词 waw 和 对 应 的 主题 标签 zan 联合 统计 得 
上 的 状态 变量 ， 然 


后 利用 MCMC 采样 算法 进行 推理 。 这 种 通过 
分 的 模型 推理 算 ; 
布 为 P(Z | w) 。 


PCZ, ww) 


PCZ | w) 二 2095 


从 式 (5) 可 以 得 到 ， 使 
“三 ” 题 和 单词 的 联合 概率 分 布 。 


在 LDA 中 ， 主 题 和 单 


] Gibbs 采样 算法 ， 则 需要 计算 主 
词 的 联合 概 


些 参数 进行 积 
法 被 称 为 “塌陷 ” 通过 积分 得 到 主题 的 后 验 分 


(5) 


率 分 布 可 以 分 解 为 pO. w) = pa | æ): pow |z, B), ， 这 两 


个 因子 分 别 对 应 着 LDA 生成 文档 集 的 两 个 过 程 : 


a) æa —> Qy > Zan 


æ — 9; & Dirichlet ii, 9, 一 > Zan 是 多 项 分 布 ， 
个 过 程 是 Dirichlet-Multinomial 35 £& fJ o 


plz|a)= | p@|0)p@|a)dO 


T— gtg 
-fall d,k d 


k=1 


2 A(n; +4) (DAK 
gil Maj ， mela ha 
其 中 : 
I 
A(a) E IL. (a) 


I Ci) 


主题 上 出现 的 次 数 。 


LI 


nj 是 文档 4d 


表示 生成 文档 中 所 有 单词 的 主题 


J 


所 以 整 


(6) 


() 
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b) B — 9, > wi, 表示 生成 文档 中 所 有 单词 。 


B9, 是 Dirichlet 分 布 ， 9, > Win EZH. HK 


似 于 a) 的 推导 方法 可 以 得 到 


k A 一 E" 
pow |z./) - [T E mna (8 
Kp. nO 是 主题 大 中 单词 ”出 现 的 次 数 。 
综合 a) 和 b)， 得 到 联合 分 布 : 
D A(n, +a) K A(n, +2) 
9 
p(w.z|a.) - L,, AG Ila ACB) (9) 


4w- (w, 21, w.4), z -(z, -khz. jJ 


单词 的 条 件 概率 。 


则 
pG; = 
pw, z-i) 
PW PO 
pOws|z-)pQw) pG-) 
" A(n. B) | AQ ta) 
AKGQz i B) Alai a) 
- dt n2, 十 Cs 
DT 有 T 1 nj +aæ,)—1 
(t) ES 
PI W Lg) (10) 
bad 172 一 +£, 
Kp. na 是 文档 d 的 主题 数 向 量 ，nx 是 主题 上 的 单词 数 向 
量 。 因 此 ， 可 以 得 到 
(k) 
uu — x 一 (Q1) 
| 2 3 nj ta 
G) 
Pes = A a2) 
> nj * 5 
最 终 ，Gibbs 采样 算法 完整 训练 流程 如 下 : 
算法 2 LDA 主题 模型 Gibbs 采样 算法 训练 过 程 
输入 : 文档 集 W EHSaoNB. XS K. 
输出 : C,d0, 
1. 随机 为 每 篇 文档 的 每 个 单词 分 配 主 题 , 根据 这 些 主题 初 


itt n? fin? , n in, 


2. Repeat 
3. for 所 有 文档 d E[l, D]: 
4. for 文档 d 中 的 所 有 单词 n el[l,N,]: 
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// 删 除 该 单词 的 主题 计数 
5. n? --lLn,--Lhnp)--Lhn--l 
// 根 据 式 (10) 采 样 得 到 该 单词 的 新 主题 
6. k ~ p(z; | zo, w) 
// 增 加 该 单词 的 主题 计数 
7. nP--bn-bhbn)--15»5 4-1; 
8. end for 
9. end for 
10. Until 收敛 或 者 达到 设 定 的 迭代 次 数 
11， 根 据 式 (L1) 和 (12) 计 算得 到 @, cb 
2 ”电信 和 轨迹 缺失 恢复 过 程 
与 基于 GPS 定位 的 轨迹 相 比 ， 更 为 丰富 的 电信 和 轨迹 来 自 
于 电信 基站 定位 数据 ， 定 位 精度 较 低 。 因 此 ， 恢 复 电 信和 轨迹 在 
某 个 具体 时 刻 缺 失 的 精确 位 置 相对 比较 困难 。 为 了 简化 恢复 电 
信和 轨迹 缺失 的 问题 ， 本 文 将 恢复 电信 轨迹 在 缺失 时 段 所 经 过 的 
某 个 区 域 。 
2.1 构造 时 空 单词 矩阵 


站 的 定位 任意 用 户 每 天 的 电 


可 电信 全 


信和 轨迹 表示 为 


Trj = { (t, Tower), (t,, Tower,),...,(t,, Tower, )) ,其 中 : t RIR 


用 户 


Tower, 表示 | 


x 


接听 通话 、 发 送 /接受 短信 、 流 量 上 网 连接 通信 基站 的 时 刻 ; 


] 户 的 移动 设备 在 1; 时刻 连接 的 基站 位 置 ， 


即 


Tower, = (lon;,lat;); lon Ñ lat 分 别 表示 该 基站 的 经 纬度 。 


a 时间 分 段 :将 一 天 24h1 


b) 空间 分 块 : 根据 运营 商 在 城 


匀 匀 划分 成 了 个 时 段 。 若 全 = 24， 
则 0:00 与 1:00 之 间 的 任意 时 刻 都 属于 同一 时 段 ， 以 此 类 推 。 


位 


HE. IH 


城市 划分 成 C 块 区 域 。 


完成 时 间 分 段 和 空间 分 块 两 个 步骤 后 , 可 以 将 用 


各 个 区 域 部 署 的 全 部 基站 
K-Means 算法 "对 基站 位 置 进行 聚 类 ， 从 而 将 


BILE: 


信和 轨迹 转换 为 777 — (0. R) T, R), 0 R, )} > A 


而 最 终生 成 时 空 单词 矩阵 X, 如 图 


3 所 示 。 
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X3 ”时 空 单词 矩阵 义 
HERE X 的 行 表示 所 有 用 户 在 所 有 天 生成 的 


电信 轨迹 ， 行 数 


ChinaXiv 合 作 期 于 


| 
人 


等 于 用 


FU 与 天 数 M 的 乘积 ; 


用 户 在 指定 时 空 单词 上 的 访问 次 数 ， 即 用 
区 域内 的 所 有 电信 基站 次 数 。 
2.2 划分 训练 集 和 测试 集 


x 


列表 示 所 
成 的 时 空 单 词 ， 列 数 等 于 时 段 数 了 与 区 域 数 C 的 乘积 ; 


了 时段 所 有 


区 域 构 
值 表示 


户 在 该 时 段 内 访问 该 


本 文 将 用 户 电信 轨迹 看 
为 了 模拟 缺失 电 
个 时 段 内 经 过 所 有 区 域 。 如 图 
轨迹 挖 去 时 段 的 所 有 区 域 ， 即 


故 是 记录 用 


户 一 天 出 行 的 完整 
言 轨迹 恢复 ， 对 每 条 轨迹 都 需要 随机 地 控 去 一 


3 


N 
迹 
RAN 


4 所 示 ， 阴 影 部 分 表示 每 条 
需要 恢复 该 时 段 内 的 轨迹 信息 ， 


Bf 


作为 测试 集 记 为 ZeszX ; 剩余 的 白色 部 作为 训练 集 ， 残 缺 矩 阵 
记 为 TrainX 。 

ot || ss | 二 3 o 

PS | pd pq bd vx] pl 

xla RIS RI 5 

TED 1E 1E pz: TR pz 


J4 ”处 理 后 的 时 空 单词 矩阵 义 


2.3 ”基于 LDA 主题 模型 的 电信 轨迹 恢复 算法 


时 段 区 域 组 合 内 出 现 
从 而 在 该 文档 集 上 利 


Ti 
8 
R 
Xu 


基于 LDA 主题 横 型 的 电信 轨迹 恢复 算法 主要 思路 是 : 将 
2.2 节 中 得 到 的 残缺 矩阵 7T7aizzX 看 做 文档 集 ， 
迹 看 做 一 篇 文档 ， 每 个 时 段 区 域 组 合 看 做 一 个 单词 ， 
的 次 数 作为 该 单词 在 对 应 文档 中 
] LDA 主题 模型 算法 得 到 文档 一 主题 矩 
阵 @ 和 主题 一 单词 矩阵 中 。 然 后 每 条 用 户 电 信和 轨迹 中 被 挖 去 


P ite 
] 户 在 该 
的 词 频 ， 


时 段 内 C 块 区 域 的 权重 可 以 通过 @ 和 中 对 应 的 行列 权重 向 量 

相 乘 得 到 。 最 终 选 取 权 重 最 大 的 N 块 区 域 作 为 该 缺失 时 段 内 可 

能 经 过 的 区 域 。 具 体 流程 如 下 : 

算法 3 基于 LDA 主题 模型 的 电信 和 轨迹 恢复 方法 

输入 : ”3.2 节 中 得 到 的 TrainX 和 TestX ,主题 数 K， 选取 
权重 最 大 的 区 域 数 量 No 

输出 : ”每 条 用 户 电信 和 轨迹 恢复 的 N 块 区 域 。 

1. 针对 文档 一 单词 矩阵 TrainX 使 用 LDA 主题 模型 
算法 得 到 文档 一 主题 矩阵 O 和 主题 -单词 矩阵 
o. 

2. 利用 @ 和 中 对 应 的 行列 权重 向 量 相 乘 计 算得 到 
TestX 中 每 条 电信 轨迹 被 挖 去 时 段 内 C 块 区 域 权 

3 选取 每 条 电信 和 轨迹 被 挖 去 时 段 内 权重 最 大 的 入 块 


区 域 作 为 该 缺失 时 段 内 可 能 经 过 的 区 


E 
: 
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3 ”实验 结果 和 分 析 


表 3 主题 数 K=30 


为 了 分 析 基 于 LDA 主题 模型 对 电信 轨迹 恢复 方法 的 准确 N 
@1 (2 (Q3 (04 (5 
性 和 时 间 效 率 ， 对 此 进行 了 实验 。 实 验 硬 件 环境 配置 是 : 3 G 评价 指标 
Huawei RH2288 服务 器 组 成 的 集群 上 , 每 台 机 器 的 配置 都 相 同 i NMF 0.252 0.223 0.208 0.185 0.157 
Precision 
CPU 为 mtel Xeon CPU E5-2690 v2@3.00 GHz, 40 核 ， 内 存 为 TL Or LEM pem Los pom 


LDA | 0.383 | 0.319 | 0.281 0.254 | 0.236 


140 GB。 实 验 抽样 采集 上 海 市 某 运 营 商 2016 年 7 月 12 号 到 8 


NMF | 0.271 0.335 | 0.413 | 0.493 | 0.562 


月 12 号 的 10 7; HH! CDR (call detail records) 数据、 短信 和 kean Fee guod eek enorm e om 

上 网 记录 构成 的 电信 和 轨迹。 抽样 条 件 是 : 将 每 天 24 个 小 时 均匀 LDA | 0.355 | 0.483 | 0.571 | 0.632 | 0.682 

划分 成 24 个 时 段 ， 用 户 每 天 至 少 有 10 个 不 同时 段 存在 基站 连 NMF | 0.261 | 0268 | 0277 | 0.269 | 0245 

接 记 录 。 Fl-score | PMF | 0292 | 0319 | 0.329 | 0.315 | 0311 

3.1 评价 标准 LDA | 0.369 | 0.384 | 0.376 | 0.363 | 0.350 

本 文采 用 准确 率 (precisiom)、 召 回 率 (recall 和 了 1-score 来 稀 表 4 主题 数 K-50 

量 电信 轨迹 恢复 的 效果 。 当 N 越 大 ,准确 率 会 越 低 ， 召 回 率 会 E el | e2 | e3 | @4 | es 
越 高 。 准 确 率 定义 为 mie 

i NMF | 0.317 | 0.292 | 0.265 | 0.249 | 0.231 

Precision Q N = |Y ^Y| Precision | PMF | 0.348 | 0.313 | 0.287 | 0.267 | 0.244 

LDA | 0.414 | 0.354 | 0.338 | 0.294 | 0.266 

召回 率 定义 为 NMF | 0295 | 0.363 | 0.465 | 0.532 | 0.613 

Recall @N = |Y' 294 Recall PMF | 0314 | 0.418 | 0.492 | 0.557 | 0.656 

M LDA | 0.387 | 0.524 | 0.593 | 0.644 | 0.708 

Fl-score 综合 权衡 了 准确 率 和 召回 率 ， 计 算 公 式 为 NMF | 0.306 | 0.324 | 0.338 | 0.339 | 0.336 

Fi-score | PMF | 0.330 | 0.358 | 0.363 | 0.361 | 0.356 

Fl-score@N=2x Recall @ N x Precision @ N LDA | 0.400 | 0.423 | 0.430 | 0.404 | 0.387 

Recall @ N + Precision  N RS E K=100 

其 中 : Y 表示 当前 电信 轨迹 在 被 挖 去 时 段 真 实 经 过 的 区 域 集合 ; QE. | Se ex: | vods 

Y 表示 预测 的 Top N 块 区 域 集合 NMF | 0357 | 0.324 | 0.303 | 0.296 | 0275 

3.2 不 同方 法 比较 Precision | PMF | 0.379 | 0.358 | 0.329 | 0.317 | 0.298 

本 文 将 电信 轨迹 恢复 问题 转换 成 矩阵 缺失 补 全 问题 ， 本 节 LDA | 0.513 | 0447 | 0382 | 0.316 | 0.283 

将 LDA 主题 模型 算法 和 常见 的 传统 矩阵 补 全 算法 非 负 矩阵 分 NMF | 0.336 | 0.391 | 0.477 | 0.549 | 0.633 

fÆ (Non-negative Matrix Factorization, NMF) "FIRER 4E [e 4) fif | 

(Probabilistic Matrix Factorization, PMF) "从 电信 和 轨迹 恢复 精度 | | os BR ed 


NMF | 0.346 | 0.354 | 0.371 0.385 | 0.383 


和 时 间 效 率 两 个 角度 上 完成 对 比分 析 。 实 验 中 设置 时 段 数 
T -24, X 或 数 es 300, Es 主题 数 K Z {10, 30, 50, 100, 150} , LDA 0.481 0.529 0.507 0.455 0.424 
实验 结果 如 表 2 一 6 和 图 5 所 示 。 表 6 主题 数 K=150 

表 2 主题 数 K=10 


Fl-score PMF 0.366 | 0.394 | 0.402 | 0.416 | 0.406 


N 
Q1 Q2 Q3 Q4 Q5 
y @l @ | @ | G4 | 65 评价 指标 

评价 指标 NMF | 0374 | 0.338 | 0.315 | 0.303 | 0.283 
NMF | 0246 | 0215 | 0.194 | 0.163 | 0.145 Precision | PMF | 0.412 | 0.376 | 0.355 | 0346 | 0327 
Precision | PMF | 0.273 | 0.256 | 0.224 | 0.196 | 0.178 LDA | 0.493 | 0.426 | 0.366 | 0.304 | 0.276 
LDA | 0.354 | 0.297 | 0.267 | 0.246 | 0.231 NMF | 0347 | 0.413 | 0.498 | 0.564 | 0.657 
NMF 0.262 0.323 0.405 0.478 0.544 Recall PMF 0.368 0.448 0.532 0.588 0.608 
Recall PMF | 0281 | 0.368 | 0.453 | 0.516 | 0.586 LDA | 0.431 | 0.616 | 0.728 | 0.783 | 0.833 
LDA | 0.318 | 0.444 | 0.534 | 0.603 | 0.660 NMF | 0.360 | 0.372 | 0.386 | 0.394 | 0.396 
NMF | 0254 | 0.258 | 0.262 | 0.243 | 0.229 Fl-score | PMF | 0389 | 0409 | 0426 | 0.436 | 0.425 
Fl-score | PMF | 0277 | 0.302 | 0.300 | 0284 | 0.273 LDA | 0.460 | 0.504 | 0.487 | 0.438 | 0.415 

LDA | 0.335 | 0.356 | 0.356 | 0.350 | 0.342 
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i 从 图 6 中 可 以 看 出 ， 电 信和 轨迹 恢 复 的 精度 在 周一 到 周 五 高 
于 周 六 和 周 日 ， 周 二 到 周 四 较 稳 定 。 实 验 设置 时 段 数 7 = 24， 

则 每 个 时 段 长 度 是 1h。 从 图 7 中 可 以 看 出 , 电信 轨迹 恢复 的 精 

san 度 在 凌晨 于 和 白天， 上午 9 点 电信 轨迹 恢复 精度 最 低 。 
-—À 产生 上 述 现象 的 主要 原因 是 ， 用 户 工作 日 的 出 行 轨迹 相 比较 周 
未 更 有 规律 ， 用 户 在 凌晨 和 夜晚 大 多 数 处 于 休息 状态 ， 在 白天 

出 行 活动 范围 更 大 。 因此， 图 6 和 7 进一步 验证 了 Song 等 人 

本 中 提出 的 人 类 的 行为 有 其 潜在 的 规律 性 。 
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图 5 各 种 算法 运行 时 间 对 比 

AR 2 一 6 可 以 看 出 ， 随 着 主题 数 K 增加 ，NME 和 PMF 
在 precision, recall 和 Fl-score 都 会 逐渐 增加 ，PMEF 轨迹 恢复 本 文 提出 了 一 种 基于 LDA 主题 模型 恢复 用 户 电信 轨迹 的 
效果 略 优 于 NMF; 随 着 主题 数 玉 增加 , LDA 在 precision recall 方法 。 在 此 过 程 中 介绍 了 LDA 主题 模型 原理 和 Gibbs 采样 推理 
和 Fl-score 是 先 增加 后 有 略微 减 小 ， 当 玉 =100 时 ，Pprecision、 算法 ;然后 本 文 详细 地 阐述 了 利用 LDA 主题 模型 解决 电信 轨 
recall 和 Fl-score 达到 最 高 ， 且 明显 高 于 NMF 和 PMF。 从 图 5 JEDE SEE. 最 终 本 文通 过 实验 对 比 了 NMF、PMF、 
中 可 以 看 出 , EAA K BUN, LDA 运行 时 间 会 略 高 于 NMF LDA 主题 模型 三 种 不 同 算法 的 恢复 精度 和 时 间 效 率 , 综合 得 出 
FI PMF; 随 着 主题 数 K 增 加, LDA 运行 时 间 逐 渐 少 于 NMF 和 结论 LDA 主题 模型 可 以 有 效 地 解决 用 户 电信 和 轨迹 恢复 问题 。 
PMF。 主 要 原因 是 : NMF 和 PMEF 的 时 间 复 杂 度 是 关于 主题 数 本 文中 研究 的 不 足 之 处 是 仅仅 能 恢复 电信 轨迹 在 某 个 时 
的 多 项 式 级 别 ， 而 LDA 的 时 间 复 杂 度 是 关于 主题 数 K 的 线 。 上 段 属于 某 个 区 域 ， 并 不 能 恢复 电信 和 轨迹 某 个 时 刻 的 县 体位 置 ， 
性 级 别 。 因此 , 可 以 得 出 结论 : 基于 LDA 主题 模型 的 用 户 电信 ”所 以 电信 轨迹 恢复 还 需要 进一步 研究 。 在 未 来 发 展 中 ， 可 以 考 
轨迹 恢复 精度 和 时 间 效 率 都 优 于 NMF 和 PMEF 两 种 算法 ,充分 虑 把 用 户 个 人 兴趣 爱好 、 路 况 、 天 气 等 上 下 文 信息 加 入 到 模型 
表明 将 用 户 电 信和 轨迹 类 比 成 文档 可 以 有 效 地 描述 用 户 每 天 出 行 中 ， 进 一 步 提高 恢复 的 精度 。 
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